پایه گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Authors

باقر باباعلی

bagher babaali school of mathematics, statistics and computer scienceدانشکده ریاضی، آمار و علوم کامپیوتر،دانشگاه تهران،تهران،ایران

abstract

علی رغم بیشینه سی ساله پژوهش در حوزه بازشناسی گفتار فارسی در ایران و دست یافتن به پیشرفت های در خور توجه، نتایج عمده کارهای انجام شده به دلیل عدم وجود بستر یکسان، قابل مقایسه و ارزیابی دقیق نیستند. بستر عمدتاً شامل سیستم بازشناسی و دادگان با تعریف مشخص مجموعه های آموزش، توسعه و ارزیابی می باشد. سیستم متن باز کلدی با وجود نوظهور بودن آن دارای ویژگیهای منحصر بفردی است که در سال های اخیر مورد توجه اکثر آزمایشگاه های تراز اول پردازش گفتار دنیا قرار گرفته است و با لحاظ همه جوانب بهترین انتخاب موجود در راستای پایه گذاری این بستر برای تمامی زبان ها از جمله زبان فارسی است. در این مقاله پس از بررسی خصوصیات، توانمندیها و اجزاء مختلف نرم افراز کلدی؛ دادگان فارس دات را به دلیل ثبت رسمی و قابل دسترس بودن آن برای همگان از سراسر دنیا به عنوان بخش دیگر این بستر انتخاب کرده و به تأسی از انتخاب انجام شده بر روی دادگان timit به تعریف مجموعه های آموزش، توسعه و ارزیابی می پردازیم. در نهایت اکثر قریب به اتفاق تکنیک ها و روش های موجود در کلدی بر روی دادگان فارس دات، مطابق تعریف صورت گرفته، مورد آزمایش قرار گرفته اند. بهترین میزان خطای حاصل در بازشناسی واج برای مجموعه توسعه 20.3 درصد و برای مجموعه آزمون 19.8 بوده است. دسترسی به کدهای نوشته در جهت فراهم سازی این بستر، در نرم افزار کلدی موجود است که با توجه به متن باز بودن آن، دسترسی به آنها به منظور بازسازی نتایج آمده در این مقاله در صورت در اختیار داشتن دادگان فارس دات براحتی قابل انجام است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

پایه‌گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Although researches in the field of Persian speech recognition  claim  a  thirty-year-old  history in Iran  which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...

full text

بازشناسی گفتار احساسی و شناسایی حالت گفتار در زبان فارسی

حالت گفتار سبب افزودن اطلاعات اضافی نسبت به اطلاعات نوشتاری می شود. از طرف دیگر، وجود حالت در گفتار سبب بروز مشکل در فرایند بازشناسی گفتار می شود. در تحقیقات قبلی نشان داده شد که حالت گفتار سبب تغییرات اساسی در پارامترهای گفتاری می شود. برای بهبود نتایج بازشناسی گفتار با حالت، ابتدا باید تأثیر آن را بر پارامترهای گفتاری به دست آورد و در مرحله بعدی، از پارامترهای مناسبی برای بهبود نتایج بازشناسی...

full text

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

full text

بازشناسی احساس از روی گفتار پیوسته فارسی

در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...

Parallel Inverse Halftoning by Look-Up Table (LUT) Partitioning

ةـصلاخلا : جا تحت زجت ة قيرط س كعلا ىفص نلا نو لل ثحبلا لود ج ة ئ ي طعتو ل قأ باسح تاوطخ ى لإ ي ةد يج جئا تن . دحاو ثحب لودج ة قيرطلا مدختستو اً يُ َّ زخ نُ ، طقف ةءار قلل ةر آاذ ىف و نو للا فيفختل مي ق ى لع لودجلا ىو تحي باسحلا ةقباس ) ىدامرلا ىوتسملا ( ىسكعلا ىفصنلا نوللا تايلمعل . ة يزاوتم باسح ة قيرط حر تقي ثحبلا اذ هو لإ زاجن ىفصنلا نوللا سكعلا ي ، جتب كلذو ىلإ درفنملا ثحبلا لودج ةئز نم ددع...

full text

My Resources

Save resource for easier access later


Journal title:
پردازش علائم و داده ها

جلد ۱۳، شماره ۳، صفحات ۵۱-۶۲

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023